XX. mendeko Euskararen Corpus estatistikoa
Testuingurua
Era desberdinetakoa izan daiteke: testuinguru murriztapena (=ampgt;), azaleko koertzioa (amplt;=), biak batera (amplt;=ampgt;) edo debeku-ezarpena (/amplt;=).
Erregela hauen hasierako sintaxiak aldaketa batzuk izan ditu ([Koskenniemi 85], [Dalrymple et al. 87]) konpiladore bat inplementatu ahal izateko eta, honela, automatetarako itzulpena eskuz egin behar ez izateko.
Adibidez,
Mako eta barren erabilpenak testuinguru alternatibo desberdinak definitzeko aukera eskaintzen du korrespondentzia baterako.
Adibidez
Erregelak erabili ahal izateko premiazkoa da elementu hauek definitzea:
- Alfabetoa, edo azaleko karaktereen multzoa.
xak karaktere hutsa denotatzen du.
- Erregeletan erabiltzen diren azaleko alfabetoaren azpimultzoak.
Esate baterako, Ck edozein kontsonante denotatzen du eta Vk edozein bokal.
- Lexikoko alfabetoa.
Erregelen aplikazioa kontrolatzen duten hautapen-marka ($, ampsect;, 4, 5, ...) izeneko karaktere bereziek eta azaleko alfabetoak osatzen dute.
- Lexikoko alfabetoaren azpimultzoak.
Azalekoen parekoak dira.
- Laburduren edo erregelen azpiadierazpenen definizioak.
- Erregelak berak.
Erregelek bi mailen arteko desberdintasunak deskribatzeko balio duten bitartean, sistema lexikoak morfema-multzoa definitzen du, morfemen artean egon daitezkeen kateamenduen arabera sailkapena eginez.
Azpilexikoen multzoa eta erroen eta afixuen sekuentzia posibleak erregulatzen dituzten jarraitze-klaseek sistema hau osatzen dute.
Azpilexikoek ezaugarri berdineko elementu lexikoak (atzizkiak, aurrizkiak, izen-lemak, aditz-lemak, ...) biltzeko balio dute.
Azpilexiko guztiek egitura bera dute; identifikatzen dituen izena eta sarrera-multzoa.
Sarrera bakoitzak hiru eremu ditu:
-
Karaktere hauek azaleko karaktereak edo hautapen-markak izan daitezke.
Azkeneko hauei, erregelen bitartez, azaleko beste karaktere batzuk egokitu lekizkieke.
- Dagokion
Zenbait azpilexiko edota beste jarraitze-klase batzuk biltzen dituen identifikadorea da.
Jarraitze-klasean biltzen diren osagaiak dira definitutako sarreraren atzetik ager daitezkeen bakarrak.
- Sarrerari dagokion